Charles Picard
Mathieu Giardini
David Boucher
http://insideairbnb.com/ propose des fichiers csv contenant les données du site Air BnB. Nous avons donc récupéré un fichier listings.csv contenant environ 60 000 appartements à Paris.Peut-être que les locataires sont intéressés par une proximité entre leur location et les monuments parisiens…
adresse.data.gouv.fr permet de récupérer les adresses dans un format harmonisé avec les longitudes/latitudes.Comme pour les monuments, il est peut-être intéressant pour un locataire de chercher à ce que son logement soit proche de gares/stations de métro.
accessibilite-des-gares-et-stations-metro-et-rer-ratp.csv sur https://www.data.gouv.fr/en/datasets/accessibilite-des-gares-et-stations-de-metro-et-rer-ratp-1/.reviews.csv sur http://insideairbnb.com/ contenant les revues des clients (environ 1 000 000 de lignes).A partir de nos données Air Bnb, nous avons aussi récupéré les id, latitudes, longitudes des logements.
Après cette opération, nous avons exporté le résultat dans le fichier quartiers.csv.
Densite-prix
Densite-prix
| Indicateur | LM | GLM | RF |
|---|---|---|---|
| Average IB error | 0.00 | 1.35 | 0.27 |
| \(\sigma\) IB error (RMSE) | 43.41 | 32.32 | 37.79 |
| \(R^2_a\) | 0.52 | 0.73 | 0.64 |
| Average OB error | 0.51 | 0.68 | 0.51 |
| \(\sigma\) OB error (RMSE) | 36.75 | 44.18 | 36.75 |
A partir du random forest, nous avons déterminé l’importance des variables avec deux méthodes :
On a obtenu les graphiques suivants…
Importance des variables (Mean decrease accuracy)
Importance des variables (Mean Decrease GINI
Les 9 variables les plus importantes (par croisement des deux) que nous avons choisies :
| Indicateur | LM1 | LM2 |
|---|---|---|
| Average IB error | 0.0000000 | 0.0000000 |
| \(\sigma\) IB error (RMSE) | 44.7820917 | 44.7824626 |
| \(R^2_a\) | 0.4882702 | 0.4882617 |
| Average OB error | 0.6255231 | 0.6232294 |
| \(\sigma\) OB error (RMSE) | 45.7526416 | 45.7536759 |
| Indicateur | GLM1 | GLM2 |
|---|---|---|
| Average IB error | 1.1819208 | 1.1819203 |
| \(\sigma\) IB error (RMSE) | 4.3802243 | 4.3799825 |
| \(R^2_a\) | 0.9950697 | 0.9950707 |
| Average OB error | 0.7347406 | 0.7347344 |
| \(\sigma\) OB error (RMSE) | 47.4262325 | 47.4262531 |
| Indicateur | RF |
|---|---|
| Average IB error | -0.0129354 |
| \(\sigma\) IB error (RMSE) | 37.7903014 |
| \(R^2_a\) | 0.6368411 |
| Average OB error | 0.2455550 |
| \(\sigma\) OB error (RMSE) | 36.7244688 |
| Indicateur | GB1 | GB2 | GB3 |
|---|---|---|---|
| Average IB error | 0.0132347 | 0.0182773 | 0.0090789 |
| \(\sigma\) IB error (RMSE) | 40.7149516 | 40.4881667 | 38.4621048 |
| \(R^2_a\) | 0.5770005 | 0.5816997 | 0.6225164 |
| Average OB error | 0.5295264 | 0.5157737 | 0.4467081 |
| \(\sigma\) OB error (RMSE) | 40.7678482 | 40.6450388 | 39.5790871 |
| Indicateur | GLM2 | RF1 | GB3 |
|---|---|---|---|
| Average IB error | 1.1819203 | 0.2480759 | 0.0090789 |
| \(\sigma\) IB error (RMSE) | 4.3799825 | 39.5490624 | 38.4621048 |
| \(R^2_a\) | 0.9950707 | 0.6008635 | 0.6225164 |
| Average OB error | 0.7347344 | 0.3376634 | 0.4467081 |
| \(\sigma\) OB error (RMSE) | 47.4262531 | 39.2330848 | 39.5790871 |
Nous avons incorporé dans notre application Shiny le prix pour chacun des 3 modèles.